知识图谱 | 李诗良/李洪林团队发布最大的疾病—靶标知识图谱可视化平台eTSN
华东理工大学药学院上海市新药设计重点实验李诗良/李洪林团队在Briefings in Bioinformatics上发表了文章e-TSN: an interactive visual exploration platform for target-disease knowledge mapping from literature,开发了目前最大的基于生物医学文本挖掘的可视化疾病—靶标知识图谱的多功能平台(e-TSN: the explorer for Target Significance and Novelty, http://www.lilab-ecust.cn/etsn/)。该平台对200多万篇生物医学全文文献中疾病-靶标关系数据进行提取,生成与药物-靶标-疾病相关的知识图谱,通过可视化表示,可为疾病提供潜在靶标谱,为靶标提供疾病谱,并关联已有和在研药物数据库,为寻找合适的靶点这一难点问题提供了实用的解决方案,同时也为数据驱动的靶点临床决策和新药研发立项提供了线索和理论依据。
新药研发是一项耗时长、投资大、风险高的系统工程,平均耗资高达26亿美元,耗时10年之久。药物靶标发现作为新药研发的源头,对药物研发的成功率起到决定性作用[1]。基于“新靶点、新机制”的药物发现已经成为现代药物开发的主流,对靶标和疾病、药物相互作用知识的了解对于开发新药和药物再利用至关重要,不仅可以促进人们在分子水平上对药物作用的理解,而且还有助于提高药物开发效率。据统计,全世界已知的疾病大约有3万种,人类基因/靶蛋白数量多达2万多种,但在已批准上市的药物中,涉及的靶标数量仅占人类蛋白的10%左右,大多针对肿瘤学、传染病、神经病学、免疫学和呼吸系统等治疗领域。因此,仍有一大部分治疗领域存在未被满足的临床需求,为其寻找新的治疗靶点和药物迫在眉睫。对于制药企业来说,寻找新的治疗领域或新靶点开展新的研发管线也十分重要[2]。
研究人员在对感兴趣的疾病、靶标进行研究时离不开对相关文献知识的调研。然而,随着生物医学的快速发展,科学文献正以指数级的速度迅速增加,这极大地推动了靶标发现和识别过程,为科学家提供了寻找疾病-靶标相关性的机会。生物医学文献的显著增长使得科学家比以往任何时候都更难找到和吸收所有与他们的研究相关的文献,即便是业内的行家也无法完全依赖于传统的人工检索方式从中凝练出生物医学知识。
因此,如何从海量文本数据中自动、高效读取有价值信息成为有效获取靶标-疾病知识的关键。尽管目前已有多种文本挖掘算法用于自动从文本中提取关系,但在将这些信息与现有数据库相联系并转化为用户可以理解的知识之间仍存在很大的滞后。知识图谱(KGs)利用强大的算法系统地填补了靶标-疾病关系的未知区域,并对产生疾病的基因和机制提供了新的见解[3],可以为药物新靶标发现提供信息技术支撑。如何从海量非结构化的文本数据中提取潜在疾病-靶标相互作用信息;如何将从文本中提取的知识与现有数据库的知识相融合;如何可视化知识图谱以帮助用户研究见解是亟需解决的关键问题。
作者开发的系统框架具体流程如图1所示。首先构建疾病、靶标实体名称组成的词典:疾病名称覆盖感染性疾病(Disease by infectious agent)、组织结构实体疾病(Disease of anatomical entity)、细胞增殖病(Disease of cellular proliferation)、代谢疾病(Disease of metabolism)、精神疾病(Disease of mental health)、遗传病(genetic disease)、身体紊乱(physical disorder)、综合征(syndrome)、罕见病(rare disease)共9类疾病,靶标名称涵盖酶(Enzyme)、表观遗传因子(Epigenetic)、G蛋白偶联受体(GPCR)、孤儿G蛋白偶联受体(oGPCR)、离子通道(Ion channel)、激酶(Kinase)、核受体(Nuclear receptor)、转录因子(Transcription factor)、转运蛋白(Transporter)以及尚未明确分类的靶标(Non-IDG)共10类蛋白家族。接着对获取的生物医学全文文献进行预处理;通过采用基于自然语言处理的命名实体识别和关系抽取技术对PubMed Central数据库中超过200多万篇生物医学全文文献中疾病-靶标关系数据进行提取。为了从数百万个文本中集成靶标和疾病的关系,作者首先定义了两个新型指标:1)重要性:用于衡量靶标和疾病两个实体之间的关联程度;2)新颖性:用于表示靶标被研究或未被研究的程度[4]。通过构建新颖的基于文献统计学的重要性与新颖性评分方法加权整合了靶标和疾病的关联数据,并将其与先验的关系数据进行集成,构建了目前最大的疾病-靶标关系数据库,包含超过1.7万种疾病与大于2万种基因/蛋白质之间3亿多条潜在的关系;进一步整合DrugBank数据库中靶标与上市、在研药物关系、ChEMBL数据库中活性分子关系数据,构建疾病-靶标-化合物实体之间的关系网络,最终将关系数据通过网页可视化平台呈现以帮助研究者进行快捷的知识查询和探索。
图4 e-TSN界面:与ACE2相关疾病重要性与新颖性分布
长按扫码可关注